SpatialWorld: Nuevo benchmark para razonamiento espacial interactivo
SpatialWorld es un benchmark unificado que evalúa el razonamiento espacial interactivo de modelos multimodales. GPT-5 solo logra un 17% de éxito. Descubre los desafíos.
SpatialWorld es un benchmark unificado que evalúa el razonamiento espacial interactivo de modelos multimodales. GPT-5 solo logra un 17% de éxito. Descubre los desafíos.
Descubre EvoEnv, el nuevo benchmark que evalúa a los agentes IA en entornos laborales dinámicos: planificación, exploración y aprendizaje continuo.